研究方法专题
被访者驱动抽样:基于多种方法的估计诊断
(照片由作者本人提供)
唐斌斌
南京大学社会学院
原文刊于《社会》2022年第1期
摘 要:本文利用RDS样本数据,使用RDS估计器、收敛图、瓶颈图、经纬度信息等,对违反“随机招募假设”的RDS估计进行综合诊断。诊断结果表明,适度违反“随机招募假设”并不会导致严重的RDS偏差,RDS估计仍然是有效的。因此,本文较为系统地介绍了多种诊断方法的实际操作及判断假设违反适度的可能标准,为国内研究者理解RDS方法,推动和发展RDS抽样和统计估计提供了思路。
自道格拉斯·赫克索恩(Douglas Heckathorn)于1997年发展出能对总体进行无偏估计的被访者驱动抽样(Respondent?-Driven Sampling,简称RDS)方法之后,RDS就成为调查隐藏人群和无抽样框群体的重要抽样方法。截至2020年12月,通过对Web of Science 核心合集引文索引数据库的检索发现,在短短23年内,就已经有1 400多篇与RDS相关的论文发表,特别是自2013年以来,每年出现的相关文献都不低于100篇(见图1)。
RDS方法之所以被研究者青睐,在于它具有其他抽样方法所不具备的独特优势:第一,RDS可以从隐藏人群或无抽样框群体中获得近似的概率样本,弥补了传统抽样难以获得代表性样本的局限;第二,与传统抽样相比,RDS利用受访者的社会关系网络,更容易鼓励目标群体参与调查,从而高效且经济地招募到大量样本;第三,也是最重要的一点,就是RDS可以结合数理统计技术进行总体估计。RDS既是数据收集方法,也是数据分析方法,这使得RDS方法在全球学术界流行。据统计,RDS方法已经在69个国家和地区得到使用,涉及领域从医学扩展到社会科学,研究对象从最初的吸毒者、艾滋病患者、性工作者、同性恋者扩展到亚文化群体、移民群体等(White,et al.,2015;Johnston,et al.,2016)。但是,RDS估计一直存在争议。引发这一挑战的主要原因是,RDS估计是由链接跟踪设计提供的,本质上依赖目标人群的基本网络结构(Heckathornand Cameron,2017),因此,要获得对总体的无偏估计,就需要满足一系列假设(Salganik and Heckathorn,2004):(1)受访者彼此认识;(2)受访者网络连接单一;(3)抽样过程可替换;(4)受访者能准确报告自己的网络规模;(5)招募过程随机。然而,越来越多的证据表明,这些假设在现实条件下并不能被满足(Heimer,2005;Gile and Handcock,2010;Li,et al.,2018)。在实际调查中,研究对象之间的网络关系大多不是同等互惠的,网络连接松散或包含多个非链接网络,网络规模通常报告不准确,抽样过程几乎不存在替换,招募过程也难以随机(Lu,et al.,2012)。
由于这些假设违反会影响RDS估计的有效性(Abdesselam,et al.,2020),从而容易使隐藏人群和无抽样框群体的研究出现重大失误,因此,着手诊断假设违反对RDS估计造成的影响便显得非常重要且必要。回应这一问题,不仅可以帮助研究者能够更好地理解RDS方法,而且对未来RDS抽样和统计估计的发展具有重要意义。一些研究者已经关注到这一问题。从检索结果看,2005—2020年,有100多篇有关诊断和改进RDS估计的文献发表。这些文献主要通过三种途径来诊断RDS估计的有效性(Gile,etal.,2015):第一,利用经典估计器对RDS样本的同质性水平进行诊断。如果假设违反后的样本同质性水平仍处于估计器所允许的阈值范围内,则认为RDS估计是有效的。第二,对RDS样本的总体代表性进行诊断。如果假设违反未对RDS样本质量造成显著威胁,也就是说,当RDS样本仍然可以代表总体情况时,获得的RDS估计也是可靠的。第三,放松假设,开发一些新的对假设不那么敏感的RDS估计器,使用新的估计器对总体进行估计。中国是使用RDS方法频率较高的国家之一(White,et al.,2015),但绝大部分诊断RDS估计的文献是国外学者的研究,国内学者更多停留在介绍和运用RDS方法等方面(刘石柱等,2005;赵延东、Pedersen,2007;张文宏、雷开春,2008,2009;梁玉成,2013),对诊断RDS估计有效性这一重要问题的关照还非常不够,亟须国内研究者对该问题做进一步探索。而且,现有文献在诊断RDS估计的方式上还比较单一,通常只使用多种诊断方法中的一种,单一的诊断方式得到的诊断结果可能是片面的,甚至是有误的,也不能提供更多有关RDS的数据、抽样过程和估计的新认识,因此,也需要研究者对RDS估计的诊断做出较为综合的探索。基于此,本文利用RDS获得的南京、无锡、广州和佛山四个城市家政工人样本数据,使用多种方法共同诊断RDS估计,以期丰富现有的诊断方法,并提供更多有关RDS估计的诊断细节,为促进RDS估计的标准化报告作出贡献,也为其他学科合理使用RDS方法提供借鉴。
本文重点关注“随机招募假设”违反导致的RDS估计有效性问题。之所以关注“随机招募假设”,是因为该假设要求RDS的招募过程是随机发生的。实际上,RDS的整个招募过程完全由受访者主导完成,研究者对受访者招募谁、不招募谁并不清楚,这种不透明的招募过程几乎不会是随机发生的(Gile,et al.,2015)。已有研究表明,许多因素,如激励的类型或大小、访谈地点、群体的污名化程度以及调查主题,都会影响受访者选择招募对象(Heckathorn,2007)。受访者通常会选择招募他们最近见过的人、住在他们附近或访谈地点附近的人、与他们关系密切的人,以及他们相信会参与调查的人(Phillips,et al.,2014)。更为极端的是,受访者可能只认识与自己相似的其他人,在“招募谁”方面并没有选择(Lu,et al.,2012)。所以,与其他假设相比,“随机招募假设”是最容易被违反的假设,是影响RDS估计有效性的重要因素之一(Tomas and Gile,2011;Li,et al.,2018;Beaudry and Gile,2020)。(一)RDS估计器
违反“随机招募假设”的后果是,RDS样本的同质性水平变高(Heckathorn,1997,2002)。同质性是表示个人与群体联系的偏好程度,在一般群体中,当存在子群内部相互招募时,例如,男性受访者只招募其他男性,他们就会表现出较高的同质性(McPherson,et al.,2001)。在实际调查中,基于社会关系网络的RDS抽样调查几乎不可避免地会出现样本同质性问题,只是程度不同而已(Phillips,et al.,2014)。赫克索恩(Heckathorn,2002)指出,当同质性普遍存在时,如果子群样本同质性水平不高或相等,样本也能达到均衡收敛,仍然可以进行有效的RDS估计,但如果子群样本同质性过高或高低不一,就说明某些子群可能被过度抽样或欠抽样。研究发现,当样本同质性水平高于0.7时,表明已经过度违反“随机招募假设”,会造成严重的RDS估计偏差,此时的RDS估计结果是不可靠的(Barash,et al.,2016)。 因此,一些对同质性水平非常敏感的RDS估计器被当作检测“随机招募假设”是否被过度违反的诊断工具。这些估计器是基于随机游走的马尔科夫模型设计的,不仅可以报告样本的同质性水平,还会报告样本的均衡收敛情况。均衡收敛是RDS调查最常用的术语之一,它用于测量招募批次的展开,以确定特征比例何时接近样本比例或调整后的估计比例,并最终稳定保持在某值上(Heckathorn,1997;Gile,et al.,2015) 。由于同质性水平会影响样本的均衡收敛,有研究表明,当同质性水平较低时,样本将在六个招募批次内完成均衡收敛(Heckathorn,1997)。因此,我们可以根据RDS估计器报告的同质性水平和均衡收敛指标来判断“随机招募假设”的违反程度,进而判断样本是否可以进行有效的RDS估计。目前比较有代表性的有RDS-I、RDS-II、RDS-SS、RDS-MA等估计器(Heckathornand Cameron,2017)。RDS-I估计器包括赫克索恩(Heckathorn,1997)、萨尔加尼克和赫克索恩(Salganik and Heckathorn,2004)开发的估计器,这类估计器对子群的同质性差异非常敏感,它被内置到RDS分析软件RDSAT中,被称为“经典的RDS估计器”。但是,RDS-I估计器需要通过两阶段来实现,比较复杂,相较之下,沃尔茨和赫克索恩(Volz and Heckathorn,2008)开发的RDS-II估计器更为简洁。RDS-II估计器同样对子群同质性差异比较敏感,且考虑到招募模式在不同子群中无法统一的情况,通过对网络规模的倒数加权,采用类似多重估计的方法可以获得对总体的渐进无偏估计。与RDS-II类似的估计器还有吉尔(Gile,2011)开发的RDS-SS估计器,但该估计器采用的是连续抽样设计,通过一系列模拟抽样获得近似每个节点的包含概率来代替被访者的网络规模。RDS-MA估计器是吉尔和汉考特(Gile and Handcock,2015)在RDS-SS估计器的基础上发展而来,该估计器使用模型辅助估计方法,可以识别样本对种子的依赖性,以校正种子选择带来的同质性影响。由于RDS-SS估计器和RDS-MA估计器都需要以总体规模作为生成估计的先决条件,对很难获得总体规模的隐藏群体而言,此类估计器的应用受到极大限制。恩德斯兰等(Abdesselam,et al.,2020)比较、评估了不同RDS估计器在假设违反情况下的表现,研究发现,总体上,没有哪种估计器是显著优于另一种估计器的。不过,在某些情况下可以根据观察到的招募模式选择不同的估计器。比如,对于违反“随机招募假设”带来的同质性问题,使用RDS-I估计器和RDS-II估计器进行诊断更为合适(Sirianni,et al.,2021),因为这类估计器不仅能敏锐地捕捉到子群样本的同质性水平差异,在操作上也更加成熟和简便。国内学者,如刘林平等(2015)、萨支红等(2020)、樊敏和张晓丽(2021),就使用了这类估计器对样本的同质性水平进行诊断。(二)收敛图和瓶颈图
违反“随机招募假设”除了会使样本同质性水平变高之外,还会对RDS样本质量产生不良影响(Merli,et al.,2015),表现为与结果相关的非随机招募和与地域相关的非随机招募导致样本对总体的代表性不足(Rudolph,et al.,2014)。与结果相关的非随机招募受到招募者网络特征、招募动态的影响,通常是一种基于兴趣结果的招募行为,比如招募与自己类似的其他受访者;与地域相关的非随机招募则是一种从特定地理区域招募受访者的招募行为,受访者倾向于局部区域招募,比如受访者招募同区域的其他受访者。如此,这两种非随机招募方式会导致RDS样本不具有总体代表性,以此样本进行的RDS估计可能是无效的。具体来说,与结果相关的非随机招募会加剧样本组成对种子的依赖性。在RDS调查中,种子通常是通过方便样本来选择的,严重依赖种子的RDS样本可能不具有总体代表性,导致RDS估计无效。尽管RDS原理认为,只要招募批次足够长,种子选择是否随机无关紧要,样本组成将独立于种子,生成有代表性的样本(Heckathorn,2002,2011;Salganik and Heckathorn,2004;Volz and Heckathorn,2008)。但是,在非随机招募过程中,招募批次需要多长才能使最终样本摆脱对方便样本的依赖性尚未有明确的认识,而且,在有限的样本量中,仅通过招募批次来解决种子带来的影响可能是不明智的(Gile and Handcock,2010)。吉尔和汉考特(Gile and Handcock,2010)的模拟研究表明,RDS链条的典型长度不足以消除样本的种子依赖性,理论上,马尔可夫链可能需要数千次迭代才能达到均衡收敛,而大多数RDS研究的招募波数都不到20(Fellows,2019)。这样可以预见,在实际调查中,由于招募过程不随机,招募批次不长,种子特征很可能会影响最终的样本特征(Gile and Handcock,2010)。也就是说,在样本量不大、招募批次不够长的情况下,非随机招募的受访者特征可能与种子特征很相似,从而导致样本变异性不够,总体代表性不足。
吉尔等(Gile,et al.,2015)另辟蹊径,提出使用一系列图形方法来诊断样本是否受到种子依赖的影响。他们建议,利用受访者参与调查的时间、所在链条批次等信息,对重要的分析变量绘制收敛图和瓶颈图。样本收敛在统计上表现为向某一值靠近,也就是说,如果RDS样本消除了对种子的依赖性,那么随着招募的继续,收敛图中的招募链条将聚合到摆脱了种子依赖的总体估计值上,表明样本不会因种子选择而产生依赖。瓶颈是指样本招募困于某处而停滞不前的情况,如果样本存在瓶颈,即一些链条将呈现不同的收敛点,就表示这些链条的子样本可能不完全来自同一群体;如果样本不存在瓶颈,即链条都将在大致相同的聚合点收敛,就表明每个链条的子样本来自相同的群体(Heckathorn and Cameron,2017)。瓶颈图可以看作叠加多个种子链条的收敛图,其假设是:如果RDS样本消除对种子的依赖性,那么,不同种子链条将最终收敛到相同的估计值上(Gile,et al.,2015)。收敛图可以帮助研究者动态评估整个RDS样本的收敛情况,瓶颈图则可以分析每条种子链的样本收敛情况。识别样本瓶颈非常重要,因为它们的存在不仅可能大大增加对RDS估计的偏差,还可能会扭曲对数据中其他变量的估计(Goel and Salganik,2009)。卢乔斯科等(Lachowsky,et al.,2016)使用RDS方法对加拿大温哥华的719名性少数人群(GBMSM)进行横断面研究时,通过绘制收敛图和瓶颈图证明,当样本不受种子选择偏差的影响时,RDS估计将保持稳定。作者就此认为,在任何抽样阶段都可以创建这些诊断图,以确定RDS样本何时才能摆脱对种子的依赖,或者是否需要进一步添加特定的种子来解决可能的样本瓶颈,为吉尔等(Gile,et al.,2015)提出的诊断学提供一个经验性的“概念证明”。他们还指出,在某些情况下,比如,当样本转移到目标群体从未探索到的部分时,或者在样本数据存在极强的瓶颈和非常不平衡的种子选择的情况下,收敛图和瓶颈图可能无法发现真正的问题。(三)地理信息
另外,与地域有关的非随机招募会使RDS样本所覆盖的地理区域受到极大影响,RDS样本有可能不是来自整个调查区域,这对RDS的估计有效性至关重要。“随机招募假设”要求招募的受访者应该来自整个调查区域而不是局部区域(Toledo,et al.,2011)。赫克索恩等(Heckathorn,et al.,2002)报告说,从广泛的地理区域招募的不同的RDS样本才具有总体代表性。事实上,RDS样本在空间上更加聚类,导致在某些地理区域过度招募,在其他地区则招募不足,甚至没有招募到受访者,这不仅限制了招募的地理覆盖范围,还创建了一个空间同质性更大的样本(Rudolph,et al.,2015)。近些年,一些学者开始利用地理信息,比如邮政编码、村落或家户方位等,来评估RDS样本是否受到局部区域招募的影响。这是因为,使用RDS方法进行抽样调查,样本的地理边界可能变得不确定。在招募其他受访者时,受访者可能从调查区域之外招募,也可能只招募研究区域中某一局部范围(例如特定的小区)内的其他受访者,非随机招募通常会导致样本不能覆盖整个调查区域。比如,一项对RDS调查进行地理可视化的研究发现,尽管RDS样本的地理分布具有很强的异质性,但一些关键地理区域仍被排除在外(Toledo,et al.,2011)。不过,也有研究表明,非随机的RDS招募会带来地理偏差,但这种偏差对RDS估计有效性的影响微乎其微(Jenness,et al.,2014)。马克莱斯等(McCreesh,et al.,2012)通过绘制研究对象、种子和调查地点的位置地理图,系统评估了RDS样本的质量,发现有代表性的RDS样本是覆盖了整个调查区域的。国内学者邱培媛等(Qiu,et al.,2012)同时采用RDS估计器和地理信息系统(GIS)技术对RDS样本质量进行诊断,进一步证实了马克莱斯等人的研究发现。金姆等(Kim,et al.,2020)创造性地利用经纬度信息构造地理凸壳来表示受访者的招募范围,通过观察凸壳大小随调查时间的变化,来确定招募过程是始终发生在一个很小的区域,还是在不同的区域。根据金姆等(Kim,et al.,2020)的观点,如果招募是在局部区域进行,那么某些样本链条很可能就无法跳出区域边界,或者一些关键区域的受访者就没有被招募到,因此,RDS的有效覆盖范围将大大少于实际的调查区域面积;如果招募是在整个调查区域进行的,则RDS的有效覆盖范围将接近实际的调查区域面积。也就是说,通过观察凸壳的有效覆盖范围的变化趋势来评估样本是否存在局部区域招募的情况,以此诊断RDS样本的总体代表性。不过,使用经纬度信息来诊断样本数据也存在局限性。出于隐私考虑,获得的经纬度信息一般比较粗糙,可能难以保证研究者观察到同一社区目标群体的网络是否真实连接的情况,因为网络不相交的目标群体也可能占据相同的地理空间,因收入、教育水平、性别或种族(民族)的不同而分隔(Kim,et al.,2020)。以上简要回顾了国内外学者在诊断RDS估计有效性方面进行的重要工作。总的来说,这些研究通常只关注到一种诊断方法,使用的诊断手段还比较单一,为此,本文以RDS抽样获得的四城市家政工人专题调查数据为例,综合使用RDS估计器、收敛图瓶颈图和经纬度信息,对违反“随机招募假设”的RDS估计有效性问题进行系统、深入地诊断,以期进一步推动国内学术界对RDS方法的了解,特别是对RDS估计有效性的关注,呼吁更多的国内学者加入这一重要问题的讨论。我们使用2019年四个城市(南京、无锡、广州、佛山)家政工人的RDS调查数据,通过考察违反“随机招募假设”对RDS样本同质性和RDS样本质量的影响来完成对RDS估计有效性的诊断。该数据来自南京大学刘林平教授主持的国家社科基金重点项目“互联网时代家政工人雇佣关系研究”。调查从2019年6月25日开始,8月4日结束,共回收1029份问卷,有效问卷1007份,问卷有效率97.86%。其中,南京303份,无锡183份,广州315份,佛山206份。家政工人的RDS抽样过程主要包括:首先,由研究者在每个城市根据家政工人的工作类型、工作年限、工作区域等特征,选择愿意接受调查并有较多同伴联系的家政工人作为种子;其次,由种子发放邀请卡去招募四名与自己有联系的同伴作为第一批被访者,第一批受访者接受完调查后同样发放新的邀请卡再招募四名与自己有联系的其他同伴作为第二批被访者,如此反复,由家政工人主导整个招募过程;最后,当招募的受访者人数达到所需样本规模时,结束调查。表1显示了四个城市的种子数和招募到的样本情况。
从表1可以看到,研究者在四个城市使用的种子数并不统一,在南京、无锡、佛山各选择了5个种子,在广州选择了8个种子。通过种子招募的样本数最多的是广州和南京,在300个左右,其次是佛山和无锡,分别为201个和178个。各城市中不同种子间招募的样本数差异很大,既有招募样本数超过总招募样本数50%的“超级种”,也存在只招募到1—5个样本的“不良种”和没有招募到任何受访者的“不育种”。各城市招募批次平均为5个,最长招募批次超过10个,分别为无锡11个、佛山13个、南京14个和广州15个。总的来说,四个城市的家政工人的RDS样本量不大,招募批次也不长。此外,我们还分析了家政工人的招募特征。表2显示了家政工人同区域、同工种招募模式的情况。从地理区域看,南京、无锡和广州的家政工人主要是跨小区招募而不是同小区招募,不同工作类型的家政工人的区域招募模式没有显著差异,但佛山家政工人的区域招募模式存在显著差异,与其他工作类型的家政工人相比,保洁员主要是同小区招募而来;从工种来看,四城市的家政工人的工种招募模式存在显著差异,具体而言,南京的月嫂、育儿嫂、家务员、保洁员主要是工种内部招募,无锡和广州的月嫂、养老护理员,佛山的月嫂、育儿嫂、保洁员,也都主要是同工种招募。结合表1和表2,我们可知,四个城市的RDS样本量有限,平均招募批次不长,大多数家政工人都倾向于同工种招募其他受访者,部分家政工人还存在同小区招募的情况。因此,我们认为,本次调查在一定程度上违反了“随机招募假设”,样本存在同质性问题。由于RDS种子是根据家政工人工作类型、工作区域等特征选择的,我们因此还可以认为,非随机招募也加剧了样本对种子选择的依赖和样本所覆盖的地理区域不足等问题。不过,此次RDS样本的同质性水平有多高,样本代表性有多差,是否威胁了RDS的估计有效性,都不得而知。为此,我们使用RDS估计器、收敛图和瓶颈图、经纬度等方法来综合评估违反“随机招募假设”造成的影响,进而完成对RDS估计有效性的诊断。
(二)方法操作说明
我们使用舒恩劳和利鲍(Schonlau and Liebau,2012)开发的rds程序(该程序可以进行RDS-Ⅰ和RDS-Ⅱ估计器的诊断),通过Stata 15.0软件实现RDS估计器方法的诊断,主要操作如下:(1) 构造RDS数据。与常规数据不同,RDS数据是有嵌入招募网络结构的数据,至少要包括受访者的邀请卡号(即ID)、网络规模、发放出去的邀请卡号和需要分析的变量。分析变量是重要且容易受到同质性效应影响的人口特征变量。
(2) 使用Stata的rds_network命令和rds命令对RDS数据进行分析。rds_network命令为网络结构的分析命令,帮助确定样本均衡收敛所需的最长批次;rds命令为主要的估算命令,帮助估计样本的同质性程度和均衡比例。具体的语法操作可通过help rds_network和help rds获得。 2. 收敛图和瓶颈图
我们遵循吉尔等(Gile,et al.,2015)的做法,通过Stata 15.0软件实现收敛图和瓶颈图方法的诊断,主要操作如下:(1) 绘制累积收敛图和瓶颈图。由于存在不同招募批次的受访者在相同的时间进入调查,以及相同招募批次的受访者在不同时间段陆续进入调查,因此,在绘制累积收敛图和瓶颈图时,需要根据受访者参与调查的时间顺序来计算分析变量的累积加权统计量。累积收敛图显示的是样本的加权统计量情况:在横轴上显示样本量,在纵轴上显示分析变量的累积加权统计量,虚线为分析变量的收敛值。累积瓶颈图类似累积收敛图,但是按照种子链的情况进行绘制,以显示不同种子链之间的差异。为简洁起见,本文只提供了大部分样本的种子链(最多为三条种子链)的收敛估计值变化情况。(2) 绘制滚动收敛图和瓶颈图。为了解具有某些特征的受访者是在何时招募到的,我们绘制了滚动收敛图和瓶颈图。根据受访者参与调查的时间顺序,计算某一时间点上最近25名受访者的滚动加权统计量。25这个数字是任意选择的,也可以选择其他数字,本质上只会改变滚动趋势的平滑度,对诊断结果没有影响。同样,滚动收敛图在横轴上显示样本量,在纵轴上显示分析变量的滚动加权统计量,虚线为分析变量的收敛值。滚动瓶颈图与滚动收敛图类似,但按照种子链的情况进行相应绘制。 3. 经纬度信息
我们借鉴金姆等(Kim,et al.,2020)的做法,通过R 3.6.2软件实现经纬度方法的诊断,主要操作如下:(1) 利用经纬度信息构造凸壳并计算其面积。本次调查收集了受访者指定调查地点的经纬度信息,这些指定的调查地点绝大部分是受访者工作地点附近或住所附近的公共场所位置,可以看作受访者的活动区域。根据这些经纬度信息,首先使用R包grDevices中的chull函数将经纬度信息转换为地理坐标点;然后使用ggplot2包中的geom_polygon函数将地理坐标点连接起来,构造出地理凸壳;最后使用GeoSphere包中的areaPolygon函数来计算凸壳面积(以平方公里为单位),用来表示RDS招募过程的总体覆盖范围。说明示例如图2所示。
(2)绘制凸壳面积的累积收敛图和瓶颈图。为了观察凸壳大小随时间变化,我们根据受访者参与调查的时间顺序来计算凸壳面积的累积加权统计量。由于受访者的经纬度坐标点是被陆续添加进地图的,凸壳面积不会变得更小,因此,我们关注的是稳定的、面积最大的凸壳。凸壳面积的累积收敛图在横轴上显示样本量,在纵轴上显示累积统计量。累积瓶颈图类似于累积收敛图,但是按照种子链的情况进行绘制。(3) 绘制凸壳面积的滚动收敛图和瓶颈图。同样,我们根据受访者参与调查的时间顺序,计算一时间点上最近25名受访者构造的凸壳面积的滚动加权统计量。凸壳面积的滚动收敛图在横轴上显示样本量,在纵轴上显示滚动加权统计量。滚动瓶颈图与滚动收敛图类似,但是按照种子链的情况进行相应绘制。RDS调查可以收集到受访者很多个体特征变量,一些特征变量通常是我们关心的,也是我们担心存在同质性问题的变量。以往研究表明,RDS很容易受到性别、教育和年龄的同质性效应影响(Uuskula,et al.,2010;Paquette,et al.,2011;Phillips,et al.,2014)。由于本次调查的家政工人绝大多数为来城市打工的农村女性,所以我们选择教育和年龄两个个体特征变量作为RDS估计器的分析变量。表3报告了四城市家政工人教育和年龄变量的同质性和均衡收敛情况。
首先,从同质性指标来看,教育和年龄两个变量在四个城市中均存在不同程度的同质性。就教育而言,变量的同质性水平在四个城市样本中比较低,都未超过0.3,且各城市的教育子群样本同质性水平也都较为一致。就年龄而言,我们可以看到几种明显的模式:从南京的样本来看,随着年龄的增加,同质性水平趋于减弱,这意味,家政工人年龄越大,年龄差异对选择人际关系就越不太重要;从无锡和佛山的样本来看,尽管各子群年龄同质性水平也不高,但小于40岁的子群样本表现出一定程度的异质性招募,这意味着,无锡和佛山中有一部分相对年轻的家政工人倾向于异质性交往,即表现出与年龄较大的家政工人的交往偏好;从广州的样本来看,各子群年龄同质性水平差异较大,40岁以下的子群样本表现出一定的异质性招募,50岁以上的子群样本表现出较高同质性招募,同质性程度达到0.58,这说明,在广州的家政工人中,年龄差异对人际交往选择影响较大,年龄较大的家政工人更倾向于同质性交往,表现出强烈的与其他年龄较大的家政工人交往的偏好。从样本的均衡收敛批次来看,无论是年龄变量还是教育变量,佛山样本只需要3个批次就能均衡收敛,南京和无锡的样本也只需要4个招募批次就能达到均衡收敛;广州样本在年龄方面需要5个批次均衡收敛,在教育方面只需要3个批次就能均衡收敛。均衡收敛意味着样本比例保持了稳定,即使后续有受访者加入也不会对样本比例变化产生显著影响。由于四个城市的样本均在5个招募批次内完成均衡收敛,说明四个城市的样本同质性水平并不高,未造成样本难以均衡收敛的情况。总之,从RDS估计器的诊断结果来看,本次RDS调查违反“随机招募假设”并未导致严重的样本同质性问题,其同质性水平均在RDS估计器可接受的阈值范围内,而且四个城市的样本也均能在较短的批次内实现均衡收敛。因此,我们认为,以此样本进行RDS估计可能是有效的。(二)收敛图和瓶颈图的诊断结果
但是,本次RDS样本毕竟是非随机招募而来,尽管同质性水平并不高,样本也还是确实存在同质性问题。那么,从样本质量角度来看,这样的样本是否对总体具有代表性呢?为此,我们进一步考察违反“随机招募假设”对样本质量造成的影响。考虑到年龄变量的同质性水平相对较高,我们着重对四个城市样本的年龄变量绘制收敛图和瓶颈图,以便了解样本是否存在种子依赖。图3是南京的样本情况,上半部分为收敛图,分别是累积平均年龄收敛图(图3-A)和滚动平均年龄收敛图(图3-B);下半部分为瓶颈图,分别是累积平均年龄瓶颈图(图3-C)和滚动平均年龄瓶颈图(图3-D);图中虚线表示平均年龄的收敛估计值。
从图3-A看到,南京样本平均年龄开始时相对较低,然后上升,最后稳定在收敛值上,表明平均年龄总体上是增加的趋势。而图3-B有一个非常清楚的变化,在招募第150到200人的时候,滚动平均年龄有非常明显的下降,这可能表明招募发生在一群相对年轻的受访者中。幸运的是,滚动平均年龄随后回升了,表明招募过程没有困于某一子群内部,这一点仅从图3-A中可能无法立即看出。从瓶颈图来看,无论是在图3-C的累积瓶颈图还是图3-D的滚动瓶颈图中,我们都可以看到,提供了绝大多数样本的两条种子链的收敛估计值不一样,一条种子链的平均年龄高于收敛值但在逐渐接近,另一条种子链的平均年龄始终低于收敛值且未能接近,最终这两条种子链未能聚合在同一收敛值上,说明有些种子链的样本可能来自不同的子群体,表明样本存在一定程度的种子依赖性。因此,非随机招募可能造成了南京样本的种子依赖性问题。图4显示的是无锡样本的情况。从图4-A的累积收敛图可以看到,随着更多受访者加入调查,样本的平均年龄呈现上升的总体趋势。但大部分值都位于收敛值下方,直到最后才聚合到收敛值上。图4-B的滚动收敛图也有类似趋势,滚动平均年龄的前半部分大多低于收敛值,后半部分大多高于收敛值,但我们也从可以清楚地看到,前半部分和后半部分也有部分高于收敛值和低于收敛值的情况,这表明RDS招募过程的早期和晚期都分别在短时间内招募到了一些年纪相对较大或较轻的家政工人,这一变化在累积收敛图中无法立即被看出,也容易被忽略。此外,累积收敛图在最后有轻微的上升趋势,滚动收敛图也表现出不断增加的趋势,这表明平均年龄可能并没有稳定收敛。从瓶颈图来看,图4-C的累积瓶颈图显示,两条种子链都是从较大年龄的受访者出发,但随后一条种子链的累积平均年龄表现为先上升后下降的发展趋势,另一条种子链的累积平均年龄则表现为先下降后上升的趋势,最后这两条种子链停留在不同的平衡点上且向收敛值方向靠拢。图4-D的滚动平均年龄则清晰地显示,两条种子链的滚动平均年龄不断向收敛值靠近,最后都聚合在同一收敛值上。由此,我们发现无锡样本表现出一种目前未能收敛(如图4-B、图4-C所示)又将要完成收敛(如图4-A、图4-D所示)的“奇怪”现象。我们认为,这可能是过早中断无锡样本招募导致的。因为与其他三个城市相比较,无锡招募的样本量和招募批次都是最少的,而样本收敛图和瓶颈图显示,未收敛的样本有向收敛值聚拢的趋势,而聚合到收敛值的样本有进一步稳定下来的趋势。也就是说,目前无锡招募的样本尽管没有完全实现收敛值的聚合,但也存在向收敛值聚合并稳定下来的倾向,如果轻易得出非随机招募导致无锡样本对种子的依赖的认识可能是错误的,更有可能的一种情况是,随着无锡样本招募的继续,样本将消除对种子的依赖性。
图5是广州的样本情况。从图5-A的累积收敛图看,尽管一开始平均年龄相对较低,但随着一些受访者的加入,平均年龄很快上升,并在招募第50人的时候稳定在收敛值上方。图5-B的滚动收敛图也可以很清楚地看到平均年龄前期上升、后期稳定的趋势,而且在大部分时间里滚动平均年龄也都保持在收敛值上。累积图表明,广州样本的平均年龄增加是招募了一个年龄相对较大的家政工人群体的结果。瓶颈图显示了三个种子链条的情况,无论是图5-C的累积瓶颈图还是图5-D的滚动瓶颈图,这三条种子链的平均年龄似乎比较接近,而且表现出相似的趋势和收敛模式。由于不同种子链条收敛到大致相同的值,说明每条种子链的样本来自同一群体,样本基本消除了种子依赖性。此外,最长种子链条的累积瓶颈图与累积收敛图表现出类似的趋势,表明这条种子链提供了广州绝大多数的样本数据。而滚动瓶颈图显示,该链条的滚动平均年龄保持在收敛值以上,说明该链条是进入了一个年龄相对较大的家政工人群体招募的。总的来看,广州的样本基本消除了对种子的依赖性。
图6显示的是佛山样本的情况。从图6-A的累积收敛图看,样本的平均年龄呈现上升的总体趋势,并最终稳定停留在收敛值附近。从图6-B的滚动收敛图看,平均年龄的前半部分低于收敛值,后半部分高于收敛值,表明RDS早期主要招募到年龄相对年轻的家政工人,后期主要招募到年龄相对较大的家政工人。从图6-C的累积瓶颈图看,两条种子链收敛到大致相同的值,说明每条种子链的样本来自同一群体。从图6-D的滚动瓶颈图看,最大的种子链条的招募过程显示出一个明确的模式,即先迅速招募到年龄相对年轻的受访者,然后再进入年龄较大的家政工人中招募。总的来看,佛山的样本也基本消除了对种子的依赖性。
通过绘制年龄变量的RDS样本收敛图和瓶颈图,我们发现,无锡、广州和佛山的样本基本消除了对种子的依赖性,南京的样本组成虽然在一定程度上受到种子选择的影响,但影响可能不大。基于此,我们认为,与结果相关的非随机招募没有对本次RDS调查获得的样本造成严重威胁,样本对总体具有代表性,可以进行有效的RDS估计。 (三)经纬度信息的诊断结果
同样,我们还从地理区域角度考察了非随机招募对RDS样本所覆盖的区域范围的影响。我们根据经纬度信息构造了四个城市的招募区域凸壳,用来表示RDS招募过程的有效覆盖范围。由于本次调查的家政工人主要在城市的城区活动,因此RDS招募的有效覆盖范围应接近实际的城区面积。图7展示的是南京RDS招募过程的有效地理覆盖情况。根据《2018年中国城市建设统计年鉴》的数据可知,南京城区面积为4 226平方公里,图7-A的累积收敛图显示南京的凸壳面积在调查过程中不断上升并达到5000多平方公里的上限。这是有可能的,因为城市本身不一定是一个凸壳体。由于凸壳面积相当大,这表明南京的RDS招募过程总体上是在城区的整个区域进行。图7-B的滚动收敛图进一步揭示,南京的招募过程在大部分时间里都徘徊在500平方公里,这表明招募过程没有困于任何一个小区。从图7-C的累积瓶颈图来看,这两条种子链都保持了相当一致的凸壳面积,最后都上升到1 500平方公里左右。我们可以看到,每一条种子链的凸壳面积有些重叠,表明这两条种子链样本并不是从完全不相干的群体中招募的。从图7-D的滚动瓶颈图来看,考虑到这些滚动区域只包含25名受访者,所以基于这些受访者的地理位置所绘制的凸壳面积其实是相当大的,最高达到800平方公里,这表明种子链的招募工作是持续发生在城市的大多数区域。综上所述,我们认为,南京样本是从整个调查区域中招募而来。
图8显示的是无锡RDS招募过程的有效地理覆盖范围。无锡的城区面积为1261平方公里。图8-A的累积收敛图显示无锡RDS招募过程的最终覆盖面积为600平方公里,不到实际面积的一半。从图8-B的滚动收敛图可以看出,无锡的招募过程在大部分时间里凸壳面积都在200平方公里左右或更低,说明无锡的招募过程主要是在局部区域内完成招募,这一发现在累积收敛图中无法立即看出。从图8-C的累积瓶颈图和图8-D的滚动瓶颈图来看,三条种子链在不同大小的区域内完成招募:从上向下数,第一条种子链的滚动凸壳面积保持在250—300平方公里,第二条种子链的滚动凸壳面积在50—250平方公里且面积变化幅度大,第三条种子链的滚动凸壳面积始终保持在10平方公里以下。这说明,无锡的种子链样本招募工作不仅发生在较小的局部区域内,也发生较大的局部区域内,且不同区域之间可能存在地理瓶颈,这些情况需要引起研究人员的注意。经过实地观察和访谈,我们了解到无锡的家政工人并没有在整个城区内工作和生活,绝大多数家政工人只聚集在一些局部区域内活动,从不同的局部区域招募来的样本是符合实际情况的。因此,我们可以认为,无锡样本是从实际的调查区域中招募来的。
图9报告的是广州RDS招募过程的有效地理覆盖面积情况。从图9-A的累积收敛图来看,凸壳面积缓慢上升,最终接近1 800平方公里,接近广州2 099平方公里的实际城区面积,表明广州的RDS招募过程基本在整个城区进行。从图9-B的滚动收敛图可以看出,滚动的凸壳面积最大可以达到800多平方公里,几乎占广州市城区面积的一半,说明广州的RDS招募过程持续发生在城市的大部分区域。从瓶颈图来看,图9-C的累积瓶颈图和图9-D的滚动瓶颈图均显示,有两条种子链比较短,没有包含太多的信息,而招募链条最长的种子链的累积凸壳面积最大达到700多平方公里,滚动凸壳面积变化幅度大且与滚动收敛图变化趋势类似,表明该种子链样本的招募工作持续发生在城市的大多数区域。综上所述,我们认为,广州样本是从整个调查区域中招募而来。
图10报告的是佛山RDS招募过程的有效地理覆盖面积情况。佛山城区面积为555平方公里,但图10-A的累积收敛图显示RDS招募过程的最终覆盖面积只接近250平方公里,不到城区实际面积的一半。从图10-B的滚动收敛图可以看出,滚动凸壳面积始终在80平方公里范围内变化,而且,招募早期的滚动凸壳面积有非常明显的下降,表明某一时段的招募发生在某一局部区域。图10-C的累积瓶颈图显示,种子链的累积凸壳面积都比较小,说明种子链的一些样本可能是从局部区域招募而来的情况。图10-D的滚动收敛图更是清晰地显示,三条种子链的滚动凸壳面积都非常小,无论是较短的种子链还是较长的种子链,其滚动的凸壳面积基本维持在10平方公里左右,表明这些种子链样本的招募工作确实是在一些小区域范围内进行,这一发现也证实了表2所揭示的佛山样本存在同小区招募倾向的情况。综上所述,我们认为,佛山某些样本是从某一局部区域招募而来。
总之,使用经纬度信息构造凸壳面积可以表征RDS招募过程。通过以上分析,我们发现,南京、无锡和广州的样本可以看作从整个调查区域招募而来,而佛山存在一部分样本是从某一局部区域招募而来。基于此,我们认为,与地理区域相关的非随机招募对南京、无锡和广州的样本没有造成严重威胁,以此样本进行的RDS估计是可靠的;佛山样本受到与区域相关的非随机招募行为影响,以此样本进行的RDS估计是否有效需要根据其他的诊断结果综合判断。(四)RDS估计结果
我们在前文花费大量篇幅,使用RDS估计器、收敛图、瓶颈图、经纬度信息等多种诊断方法深入系统地诊断了违反“随机招募假设”情况下RDS样本的同质性问题和样本的总体代表性问题(即样本质量),以便判断基于此样本的RDS估计有效性。基于多种方法的诊断结果表明,大体而言,适度违反“随机招募假设”并不会导致样本同质性水平变高和威胁样本的总体代表性,基于这些样本进行的RDS估计可以看作有效的。因此,我们有必要对四个城市家政工人样本的RDS估计结果进行展示。表4报告了四个城市家政工人RDS样本的总体参数估计。除了实际样本比例之外,还提供了三种不同的比例估计。均衡比例估计是指转移矩阵达到平衡时的理论抽样比例估计,如果网络规模不变,则总体估计等于均衡估计;总体估计是平均网络规模调整后的均衡比例,Volz-Heckathorn估计是对多重网络规模进行倒数加权后得到的总体比例。
尽管四个城市的样本量、种子数和招募批次都非常不同,但无论是均衡比例估计、总体比例估计还是Volz-Heckathorn比例估计,均显示年龄和教育在同一城市样本中表现出较好的一致性估计。三种不同的比例估计均与样本比例较为一致,说明此次RDS调查获得的样本比例较为准确地反映了总体情况,也从侧面证实了适度违反“随机招募假设”并不会影响RDS估计有效性。基于RDS总体参数估计的结果表明,超过80%的国内家政工人年龄在40岁以上,教育程度为初中及以下。鉴于国内学者对RDS估计有效性问题的普遍忽视,以及国外学者单一的诊断RDS估计有效性的方法,本文利用四个城市家政工人的RDS样本数据,系统介绍了如何综合使用RDS估计器、收敛图、瓶颈图、经纬度等具体方法对违反“随机招募假设”导致的RDS估计有效性问题进行诊断。结果表明,适度违反“随机招募假设”并不会给RDS估计带来严重偏差,基于这些样本获得的RDS估计仍然有效。这一结论进一步印证和丰富了以往的研究发现(Jenness,et al.,2014;Aronowand Crawford,2015;Barash,et al.,2016)。由于“随机招募假设”在实际调查过程中被普遍性违反,那么,如何判断假设违反是“适度”的呢?对此,有必要从方法论角度来具体阐述。第一,使用RDS估计器对样本的同质性水平和均衡收敛情况进行诊断,如果样本同质性水平低于0.7,同时样本的特征比例能在6个招募批次内完成均衡收敛,我们就可以认为,此时的对“随机招募假设”的违反是适度的。第二,绘制重要分析变量的收敛图和瓶颈图对样本组成的种子依赖性情况进行诊断,当全部样本或者不同链条样本的累积收敛图、瓶颈图和滚动收敛图、瓶颈图均能显示样本最终在收敛值上聚合并稳定下来时,表明样本组成基本消除了种子依赖性。我们认为,此时“随机招募假设”的违反是适度的。第三,利用经纬度信息构造出有效地理覆盖面积对样本是否来源于整个调查区域进行诊断,当全部样本的有效地理覆盖面积基本接近整个调查区域面积时,或者当不同种子链样本的有效地理覆盖面积尽管小于实际的调查区域面积,但覆盖范围不重合且变化幅度较大时,表明绝大部分样本来自整个调查区域。我们认为,此时 “随机招募假设”的违反是适度的。
为此,我们应当要讨论的是,尽管对RDS估计进行诊断和报告本是使用RDS方法的研究者的应然之举,然而,目前,无论是在医学领域还是社会科学领域,RDS估计诊断都存在严重报告不足和被滥用的情况(White,et al.,2015;Johnston,et al.,2016;Khoury,2020),这显然不利于RDS方法的标准化和未来发展。为此,研究者应充分了解RDS估计诊断方法的多样性、适用性,以及每一种诊断方法的优势和局限,以便为同行提供标准化的RDS估计诊断报告。首先,RDS估计器是目前常规使用的诊断方法,它可以量化报告样本的均衡收敛批次和同质性水平。但是,RDS估计器通常是在调查结束后采用的诊断方法,它能描述招募过程中可能存在的问题却无法及时解决,而且,RDS估计器并不能很好的识别和控制种子依赖和局部区域招募带来的同质性问题,这意味着RDS估计器提供的样本均衡分析和总体参数估计可能会存在偏差。其次,绘制分析变量的收敛图和瓶颈图,可以获得更多RDS招募过程中的信息。例如,我们从累积收敛图中可以了解样本的最终收敛情况,从滚动收敛图中可以了解样本收敛是如何发生的。我们还可以从累积瓶颈图中发现不同种子链是否具有相同的招募趋势和收敛模式,从滚动瓶颈图中看出不同种子链条的招募模式变化。这样,收敛图和瓶颈图就可以帮助研究者动态观察到样本的种子依赖性迹象。研究者可以一边进行RDS调查,一边利用收集到的数据对重要变量绘制收敛图和瓶颈图,实时了解抽样过程中可能出现的偏差,必要时可以对样本组成的种子依赖性影响进行控制,比如扩大样本量、增加种子数和招募批次等。但是,作为一种图形方法,除了吉尔等(Gile,et al.,2015)提到的问题之外,收敛图和瓶颈图无法像RDS估计器一样给出客观的量化指标来帮助研究者识别样本的种子依赖程度,它需要研究者结合专业的背景知识对图形进行解读,这有可能出现诊断结果解读不准确的情况。
最后,使用经纬度信息构建凸壳面积来表征RDS招募过程的有效覆盖面积,可以通过观察凸壳面积的动态变化及其变化幅度大小,来了解RDS招募过程是在局部区域还是在整个调查区域中完成,招募过程是困于某一区域,还是已经跨越了地理边界。这些信息为研究人员了解招募何时在小区域开始,何时在较大区域开始提供了洞察力。一些迹象可以帮助研究者决定何时对招募过程进行合理干预。例如,当招募过程仅限于某些区域时,研究者可以考虑在不同的区域添加更多的种子,或者要求受访者招募更多来自其他地点的人,以改善局部区域招募带来的空间同质性问题。但是,由于城市的整体结构和布局的差异,利用经纬度信息构造的凸壳面积并不是特别准确,而且,当调查正在进行时,研究者对凸壳面积的变化很难解释,需要询问受访者更多额外的信息才能做出合理决策。此外,经纬度信息可能涉及受访者的隐私,因此,研究者需要考虑研究伦理,在数据获取和隐私保护方面做出平衡。需要进一步要讨论的是,就抽样方法本身而言,目前RDS方法很难与经典的概率抽样设计竞争,如果可以构建相对较好的抽样框,并能接触到研究群体,选择传统的概率抽样是比较好的。然而,如果方便抽样是对研究群体的唯一选择,那么RDS方法则是更好的选择,因为它可以提供近似随机的概率抽样。RDS看起来是一种相对容易实现的方法,实际上,该方法的严格假设在实际调查中经常被违反,需要研究者格外注意。由于RDS既是数据收集方法,也是数据分析方法,因此,一旦使用RDS方法收集数据,就必须要对RDS估计进行诊断,只有在调查中同时使用了这两种方法才能称为RDS。然而,许多研究者往往在不了解RDS方法的情况下使用RDS(Johnston,et al.,2016),这就是RDS被滥用的原因之一。 本文的局限在于,其一,由于家政工人群体属于无抽样框群体,无法获得真实的总体参数,因此只能依赖不同诊断方法的相互印证来讨论各个诊断方法的优劣。这种优劣是相对而不是绝对的,后续研究者可以结合真实的总体参数对不同RDS诊断方法进行分析,也许会得到更明确的结论。其二,本文仅是对违反“随机招募假设”造成的RDS估计有效性问题进行诊断,而有效的RDS估计还要满足其他假设。这些假设,如“替换抽样假设”“准确报告网络规模假设”等,在实际调查中也经常被违反,违反这些假设会对RDS估计造成什么影响也值得我们思考。由于这些重要问题已经超出了本文的探讨范围,所以希望有研究者继续探索,为推动RDS抽样和统计估计发展作出贡献。